高可用性

从系统的部署架构和组件构成来看,ZStack Cloud云平台的高可用设计实现主要包括以下几个部分:设备高可用性、网络高可用性、存储高可用性、虚拟化高可用性、管理高可用性、系统配置备份、业务高可用性。

结合ZStack Cloud云平台所提供的灾备模块以及多维度监控系统和错误预发现告警机制,可以极大程度的提升ZStack Cloud云平台落地的高可用性。

设备高可用性

承载云平台的底层硬件设备全部采用高可用设计方案。

  • 每台服务器使用双电源,接入两路交流电,保证在一路电源断电的情况下仍然能够正常工作。
  • 配合接入交换机,服务器各网络跨网卡交叉做bond来保证数据传输的高可靠性。
  • 不同的管理节点分开部署到不同的机柜,避免了机柜整体掉电平台管理无法使用的情况。
  • 使用两块磁盘构建RAID1来安装底层服务器操作系统,一块磁盘损坏的情况下不影响系统整体运行。

1660898484545.png

网络高可用性

网络是云平台和外部通信、云平台内部互联的纽带,如果网络不可用,则会导致云平台部分或整体无法提供服务,严重影响业务的正常访问。

  • 网络设备高可用

    • 网络设备连接了管理节点、计算节点、存储系统以及云平台外部访问,对整个云平台稳定运行至关重要。
    • 接入、汇聚、核心层设备都需要使用堆叠技术,如IRF来做高可用,保证在某一台设备整体宕机的情况下网络仍然连通。
  • 服务器网卡高可用

    • 服务器各网络采用bond形式来聚合不同网卡的网口,分别连接到堆叠的不同交换机上,充分保证数据链路的冗余,在网卡、交换机故障的情况下,依然有通路保证业务平稳运行。
  • 虚拟网络高可用

    • 虚拟网络分为扁平网络和VPC网络:扁平网络通过网桥连接到服务器bond口,高可用依赖于服务器网卡;VPC网络采用定制的路由器镜像创建一台虚拟机作为VPC路由器,三层流量都经过VPC路由器进行转发,一旦VPC路由器所在物理机宕机,数分钟之后会在其他正常节点重新启动,保证业务连续性。
    • 不同的租户使用不同的VPC路由器,即使有物理机宕机,也只影响其上运行VPC路由器的租户数分钟,对其他租户没有任何影响,缩小了故障影响范围。
    • 同时VPC路由器支持双机主备模式,可供创建VPC路由器时选择,主备路由器会不断进行心跳检测;主路由器如果发生故障,备路由器会提升为主路由器,所有流量秒级进行切换,最大程度保障业务的连续性。

存储高可用性

存储作为云平台的核心,一旦发生异常,将会影响整个云平台的运行,产生大面积影响。

  • 云平台的存储一般支持服务器本地磁盘、NAS、SAN以及分布式存储等。
  • 本地磁盘直接作为存储介质,仅能通过服务器的磁盘RAID技术保障磁盘级别的数据高可用,一旦整个计算节点宕机,虚拟机无法支持高可用。
  • 采用NAS、SAN这样的集中式存储,计算节点仅提供计算资源,一旦计算节点宕机,虚拟机支持高可用,而存储本身的高可用需要存储设备实现,依赖于NAS或SAN存储的容灾能力,通常采用两个NAS或SAN实现存储双活。采用分布式存储,基于分布式存储多节点、多副本的能力,可以实现存储硬盘级别、节点级别、机柜和机房级别的高可用。
  • ZStack企业级分布式存储基于Ceph分布式存储方案开发,并对Ceph做了配置优化达到企业生产环境要求。用户可以通过ZStack Cloud云平台使用存储创建、删除、云主机挂载、云存储卸载、云存储查询、云存储QoS等服务。采用全分布式存储架构,整个存储系统没有单点故障,并且,通过系统的多副本技术,可以根据用户需要设置数据副本数量和复制策略,把数据同时存在于多台服务器、多个机架、多个数据中心中,最大限度提高数据容灾能力。

虚拟化高可用性

  • ZStack Cloud云平台将一组服务器主机合并为一个具有共享资源池的集群,并持续对集群内所有的服务器主机与虚拟机运行状况进行检测,一旦某台服务器发生故障,云平台会持续进行检测,确定此服务器宕机后,会立即在集群内另一台服务器上重启所有受影响的虚拟机,保证业务的连续性。
  • ZStack Cloud云平台虚拟化高可用通过管理平台实现,将云主机高可用级别设置为Neverstop,可以将停机时间和 IT 服务中断时间降到最低程度。
  • 注意评估集群整体空闲计算资源,如一台物理机宕机后,其余的正常状态物理机是否有足够的空虚资源能够将宕机节点上的云主机拉起。在计算资源紧张时,应仅将重要业务类型的云主机高可用级别设置为Neverstop。

管理高可用性

  • 管理节点负责整个平台的资源管控、监控、调度、分配和回收,作为用户使用云平台的控制台。
  • 管理节点若出现宕机,管理服务将不可用,直接影响到平台的运维管理、监控报警、租户访问、自动化任务执行等,对平台或租户的运维工作产生较大影响。
  • 因此可以采用管理节点高可用的技术来保障平台的管理服务。

results matching ""

    No results matching ""